Introduction aux modèles linéaires

2eme-FA-EMS - BUT SD - E. Anakok

Organisation

Apprentissage critique

  • AC22.01 | Prendre conscience de la différence entre modélisation statistique et analyse exploratoire
  • AC22.03 | Comprendre l’intérêt des analyses multivariées pour synthétiser et résumer l’information portée par plusieurs variables
  • AC22.05 | Apprécier les limites de validité et les conditions d’application d’une analyse
  • AC24.03EMS | Comprendre l’impact du type de données sur le choix de la modélisation à mettre en œuvre
  • AC24.04EMS | Apprécier les limites de validité et les conditions d’application d’un modèle
  • AC24.05EMS | Réaliser l’importance de la mise en oeuvre d’une procédure de test statistique pour valider ou non une hypothèse

Plan du cours

  • I Modèle linaire simple
  • II Modèle linéaire multiple
  • III Sélection de variables
  • IV ANOVA

Introduction

Problématique biologique

Données : On a pour 20 brèmes péchées dans le lac Laengelmavesi en Finland leurs poids (en gramme) et leurs tailles (en cm).

Pour \(i \in 1,\dots, n\) :

  • \(y_i\) est le poids du poisson \(i\) (en grammes)

  • \(x_i\) la longueur du poisson \(i\) (en cm).

Especes Poids Longueur
P1 242 23.2
P2 290 24.0
P3 340 23.9
P4 363 26.3
P5 430 26.5

 

Représentation

Questions

  • Expliquer le poids des poissons en fonctions de leurs tailles ?

  • Y’a-t-il une relation linéaire entre les deux ?

Trouver “la meilleure droite” ?

\[J(a,b) =\sum_{i=1}^n e_i ^2= \sum_{i=1}^n (y_i - \widehat{y_i})^2 = \sum_{i=1}^n (y_i - (ax_i + b))^2\]

Méthode des moindres carrés

Définition

  • Équation de la droite des moindres carrés :

\[\widehat{y}_i = ax_i+b\]

  • \(a\) et \(b\) sont obtenus en minimisant la somme des carrés des erreurs :

\[J(a,b)=\sum_{i=1}^{n} \left(y_i-(ax_i+b)\right)^2\]

Droite des moindres carrés et erreurs

\[J(a,b)=91435.22\]

Objectif

Avec notre échantillon de \(n\) observations, quelle confiance donner à l’estimation des coefficients \(a\) et \(b\) ?

Ce qu’il faut retenir de ce cours

Modélisation probabiliste du modèle linéaire

\(y_i\) est la réalisation d’une variable aléatoire \(Y_i\) telle que pour \(1 \leq i \leq n\): \[Y_i = \alpha x_i + \beta + E_i, \quad E_i\overset{i.i.d.}\sim{\cal N}(0,\sigma^2) \]

Estimateurs du modèle

\[ {A}=\frac{\sum_{i=1}^n(x_i-\bar{x})(Y_i-\bar{Y})}{\sum_{i=1}^n(x_i-\bar{x})^2} \quad;\quad{B}=\bar{Y}-A\bar{x} \quad; \quad S^2=\frac{1}{n-2}\sum_{i=1}^n(Y_i-\widehat{Y_i})^2 \]

Valider les hypothèses du modèle avec les 4 graphes de diagnostic

Modèle linéaire simple : théorie

Données

On a \(n = 20\) observations.

Pour \(1 \leq i \leq n\):

  • \(x_i\) : longueur du poisson \(i\).

  • \(y_i\) : poids du poisson \(i\).

fish <- read.table(file = "fish_linsimple.csv",
                   sep =";", header = TRUE)
kable(fish[1:5,])
Poids Longueur
242 23.2
290 24.0
340 23.9
363 26.3
430 26.5
summary(fish)
     Poids          Longueur    
 Min.   :242.0   Min.   :23.20  
 1st Qu.:383.2   1st Qu.:26.73  
 Median :487.5   Median :28.45  
 Mean   :481.5   Mean   :27.92  
 3rd Qu.:600.0   3rd Qu.:29.43  
 Max.   :700.0   Max.   :31.00  
ggplot(fish, aes(x = Longueur, y = Poids)) +
  geom_point()

Écriture du modèle

Notations

On a \(n=20\) observations. On note, pour \(1 \leq i \leq n\)

  • \(x_i\) la mesure de la longueur du poisson \(i\).
  • \(y_i\) la mesure du poids du poisson \(i\).

Définition : Modèle de régression linéaire simple

On suppose que \(y_i\) est la réalisation d’une variable aléatoire \(Y_i\) telle que pour \(1 \leq i \leq n\): \[Y_i = \alpha x_i + \beta + E_i\]

  • \(\alpha\) est un paramètre inconnu;
  • \(\beta\) est un paramètre inconnu;
  • \(E_i\) une variable aléatoire appelée erreur résiduelle.

Dans notre exemple, \(\alpha\) est l’effet de la longueur sur le poids.

Modélisation de l’erreur résiduelle

Définition : Modèle de régression linéaire simple

\(E_i\) une variable aléatoire appelée erreur résiduelle , telle que:

  • Toutes les variables aléatoires \(E_1,\dots, E_n\) sont indépendantes;

  • Tous les \(E_i\) ont la même espérance, égale à 0;

  • Tous les \(E_i\) ont la même variance, égale à \(\mathbf{\sigma^2}\) (paramètre inconnu);

  • Tous les \(E_i\) suivent une loi normale;

\(\Rightarrow\) les \(E_i\) sont indépendants et identiquement distribués de loi \(\mathcal{N}(0, \sigma^2)\)

  • On notera directement \(E_i\overset{i.i.d.}\sim{\cal N}(0,\sigma^2)\)

Aléatoire ou pas ?

Remarques

\[\color{red}{Y_i} = {\color{blue}{\underbrace{\alpha x_i + \beta}_{{déterministe}{}}}} + \color{red}{\overbrace{E_i}^{aléatoire}}, 1 \leq i \leq n \]

  • \(\color{red}{Y_i}\) réponse aléatoire pour l’unité \(i\)
  • \(\color{blue}{x_i}\) valeur non-aléatoire de \(x\) pour l’unité \(i\)
  • \(\color{blue}\alpha\) est un paramètre inconnu, l’effet de la longueur sur le poids;
  • \(\color{blue}\beta\) est un paramètre inconnu;
  • \(\color{red}{E_i}\) une variable aléatoire appelée erreur résiduelle les \(\color{red}{E_i}\) sont indépendants et identiquement distribués de loi \(\mathcal{N}(0, \sigma^2)\)

Autre formulation du modèle linéaire

Remarques

  • Le modèle

\[Y_i = \alpha x_i + \beta + E_i,\quad 1 \leq i \leq n, \quad E_i\overset{iid}\sim \mathcal{N}(0,\sigma^2)\] est équivalent à

Les \(Y_i\) sont indépendants et \(Y_i \sim \mathcal{N}(\) \(\alpha x_i +\beta, \sigma^2\) \(), \; 1 \leq i \leq n\)

  • \(\mathbb{E}[Y_i]=\) \(\alpha x_i + \beta\) , \(\mathbb{V}[Y_i]=\) \(\sigma^2\)
  • \(x\) n’influe que sur la moyenne et pas sur la variance de \(Y\)
  • \(Y_i\) se décompose en
    • Une partie fixe expliquée par le modèle:
    • Une partie aléatoire non expliquée par le modèle

Exemple de modélisation linéaire simple

On a \(n=20\) observations. On note, pour \(1 \leq i \leq n\)

  • \(x_i\) la mesure de la longueur du poisson \(i\).
  • \(y_i\) la mesure du poids du poisson \(i\).

On suppose que \(y_i\) est la réalisation d’une v. a. \(Y_i\) telle que pour \(1 \leq i \leq n\): \[Y_i = \alpha x_i + \beta + E_i \quad \text{avec} \quad E_i\overset{i.i.d.}\sim{\cal N}(0,\sigma^2)\]

Estimateurs et estimations des paramètres

Rappel : covariance et corrélation

Rappel

\[\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i\quad, \quad \bar{y}\ =\ \frac{1}{n}\sum_{i=1}^{n} y_i\] \[\mathbb{V}_{emp}(x) = \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\quad \text{ (estimateur biaisé)}\]

\[Cov_{emp}(x,y)= \frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y}) \] \[\begin{align} r(x,y) &= \frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\displaystyle \sum_{i=1}^n(y_i-\bar{y})^2}} \\ & = \frac{Cov_{emp}(x,y)}{\sqrt{\mathbb{V}_{emp}(x)}\sqrt{\mathbb{V}_{emp}(y)}} \end{align}\]

Questions

Rappel

  • Quelle est la moyenne empirique de \(x\) ? de \(y\) ?
  • Quelle est la valeur du coefficient de correlation ? -2, -0.5 , 0, 0.3 , 0.8 ou 5 ?

Questions

Rappel

  • Quelle est la valeur du coefficients de correlation de \(X\) avec \(X\) ?

  • Quelle est la valeur du coefficients de correlation de \(X\) avec \(2X\) ?

  • Quelle est la valeur du coefficients de correlation de \(X\) avec \(2X + 3\) ?

  • Quelle est la valeur du coefficients de correlation de \(X\) avec \(-X\) ?

Méthode des moindres carrés

Définition

  • Équation de la droite des moindres carrés :

\[\widehat{y}_i = ax_i+b\]

  • \(a\) et \(b\) obtenus en minimisant la somme des carrés des erreurs

\[J(a,b)=\sum_{i=1}^{n} \left(y_i-(ax_i+b)\right)^2\]

Théorème

  • La minimisation de \(J(a,b)\) en \(a\) et \(b\) conduit à

Exercice :

\(a =\) \(\frac{\displaystyle\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2}= \frac{Cov_{emp}(x,y)}{\mathbb{V}_{emp}(x)}\) et \(b\) = \(\bar{y} - a\bar{x}\)

Estimateurs des paramètres du modèle :

Définition

  • A et B estimateurs de \(\alpha\) et \(\beta\) obtenus par la méthode des moindres carré.

\[\begin{align} \color{red}{A}&=\frac{\sum_{i=1}^n(x_i-\bar{x})(Y_i-\bar{Y})}{\sum_{i=1}^n(x_i-\bar{x})^2}=\frac{\sum_{i=1}^n(x_iY_i)-n\bar{x}\bar{Y}}{\sum_{i=1}^n x_i^2-n(\bar{x})^2}\\ \color{red}{B}&=\bar{Y}-A\bar{x} \end{align}\]

  • \(a\) et \(b\) estimations de \(\alpha\) et \(\beta\) : réalisations \(a\) et \(b\) des estimateurs \(A\) et \(B\) sur les données

\[ \begin{align} \color{blue}{a}&=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2}=\frac{\sum_{i=1}^n(x_iy_i)-n\bar{x}\bar{y}}{\sum_{i=1}^n x_i^2-n(\bar{x})^2}\\ \color{blue}{b}&=\bar{y}-a\bar{x} \end{align}\]

  • \(a\) et \(b\) sont les coefficients de la droite des moindres carrés.

Modèle linéaire avec R

modele_reg_simple <- lm(Poids~ Longueur, data = fish)
coef(modele_reg_simple)
(Intercept)    Longueur 
 -876.48191    48.63832 

\(a =\) 48.6383206 et \(b =\) -876.4819101

Estimateur de la variance des résidus

Définition

  • \(\widehat{Y_i}=Ax_i+B\), la prévision (aléatoire) par le modèle de régression linéaire associée à \(x_i\).

  • \(S^2\) estimateur de \(\sigma^2\) : variance empirique \[\color{red}{S^2=\frac{1}{n-2}\sum_{i=1}^n(Y_i-\widehat{Y_i})^2=\frac{1}{n-2}\sum_{i=1}^n(Y_i-Ax_i-B)^2}\]

  • Estimation de \(\sigma^2\) : réalisation \(s^2\) de \(S^2\) sur les données \[\color{blue}{s^2=\frac{1}{n-2}\sum_{i=1}^n(y_i-ax_i-b)^2=\frac{1}{n-2}\sum_{i=1}^n \widehat{e}_i^2}\]\(\widehat{e}_i = y_i - ax_i -b\) sont les résidus observés.

Modélisation des données avec R

summary(modele_reg_simple)

Call:
lm(formula = Poids ~ Longueur, data = fish)

Residuals:
     Min       1Q   Median       3Q      Max 
-218.349  -22.040   -5.274   46.515   97.877 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -876.482    198.380  -4.418 0.000332 ***
Longueur      48.638      7.082   6.868    2e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 71.27 on 18 degrees of freedom
Multiple R-squared:  0.7238,    Adjusted R-squared:  0.7084 
F-statistic: 47.16 on 1 and 18 DF,  p-value: 2.004e-06

Résidus observés

summary(modele_reg_simple)$residuals %>% head()
          1           2           3           4           5           6 
 -9.9271269  -0.8377834  54.0260487 -39.7059207  17.5664152  22.9749190 

Fonction summary

On peut récupérer les infos:

Coef <- summary(modele_reg_simple)$coefficients
class(Coef)
[1] "matrix" "array" 


Coef
              Estimate Std. Error   t value     Pr(>|t|)
(Intercept) -876.48191 198.379689 -4.418204 3.318341e-04
Longueur      48.63832   7.082325  6.867565 2.004153e-06


names(summary(modele_reg_simple))
 [1] "call"          "terms"         "residuals"     "coefficients" 
 [5] "aliased"       "sigma"         "df"            "r.squared"    
 [9] "adj.r.squared" "fstatistic"    "cov.unscaled" 


summary(modele_reg_simple)$sigma
[1] 71.27226

Validité des hypothèses

Validité des hypothèses

Les résidus observés permettent de valider les hypothèses du modèle linéaire:

  • \(E_i\) une variable aléatoire appelée résidu, telle que:
    • Toutes les variables aléatoires \(E_1,\dots, E_n\) sont indépendantes;
    • Tous les \(E_i\) ont la même espérance, égale à 0;
    • Tous les \(E_i\) ont la même variance, égale à \(\mathbf{\sigma^2}\) (paramètre inconnu);
    • Tous les \(E_i\) suivent une loi normale;

Validation des hypothèses

  • Hypothèse d’indépendance: Elle doit être validée par le plan d’expérience !
  • Distribution identique, de loi normale: Ces hypothèses doivent être vérifiées grâce aux \(\widehat{e}_i = y_i - \widehat{y_i}\).
  • En pratique: diagnostic graphique des résidus

4 graphes de diagnostic

par(mfrow = c(2,2))
plot(modele_reg_simple)

Distribution identique, espérance constante et nulle

Ce qu’on regarde: Les résidus observés \(\widehat{e}_i\) en fonction des prédictions \(\widehat{y}_i\).

Ce qu’on voit: La valeur des résidus ne semble pas dépendre de la valeur des prédictions (il ne sont donc pas structurés en fonction de la prédiction). Ils sont globalement identiquement distribués autour de 0.

Ce qu’on conclut: On valide l’hypothèse d’espérance constante et égale à 0.

Ce qu’on voit: Les valeurs des résidus dépendent de la valeur des prédictions (il sont donc structurés en fonction de la prédiction).

Ce qu’on conclut: On ne valide pas l’hypothèse d’espérance constante et égale à 0.

Distribution identique, variance constante

Ce qu’on regarde: la racine carrée de la valeur absolue des résidus (standardisés) observés en fonction des prédictions \(\widehat{y}_k\).

Ce qu’on voit: la racine carrée de la valeur absolue des résidus ne semble pas dépendre de la valeur des prédictions (il ne sont donc pas structurés en fonction de la prédiction). Ils sont globalement identiquement distribués autour de 0.8.

Ce qu’on conclut: On valide l’hypothèse de variance constante.

Ce qu’on voit: la racine carrée de la valeur absolue des résidus dépend de la valeur des prédictions (il sont donc structurés en fonction de la prédiction).

Ce qu’on conclut: On ne valide pas l’hypothèse de variance constante.

Distribution normale

Ce qu’on regarde: La valeur des quantiles empiriques des résidus standardisés en fonction de la valeur quantiles théoriques d’une loi normale \(\mathcal{N}(0 ,1)\).

Ce qu’on voit: Les points sont globalement alignés sur la droite \(y = x\). Les quantiles empiriques sont donc à peu près égaux aux quantiles théoriques (si les hypothèses du modèle sont vraies).

Ce qu’on conclut: On valide l’hypothèse de distribution normale des résidus.

Ce qu’on voit: Les points ne sont pas globalement alignés sur la droite \(y = x\). Les quantiles empiriques sont donc différents des quantiles théoriques.

Ce qu’on conclut: On ne valide pas l’hypothèse de distribution normale des résidus.

Points influents ou aberrants

Ce qu’on regarde: La valeur des résidus (standardisés) en fonction du levier de l’observation (poids d’une observation dans l’estimation de sa prédiction).

Ce qu’on voit: Les points ont tous un petit levier, donc aucun point n’influe trop sur la droite. Aucun point n’est en dehors de l’enveloppe délimitée par les hyperboles rouges, représentant les lignes de niveau 0.5 de la distance de Cook.

Ce qu’on conclut: Aucun point n’est aberrant ou trop influent.

Ce qu’on voit: Un point est en dehors de l’enveloppe délimitée par les hyperboles rouges, représentant les lignes de niveau 0.5 de la distance de Cook.

Ce qu’on conclut: Il y a un point aberrant dans les données.

4 graphes

Donc on valide les hypothèses du modèle pour notre exemple.

On peut maintenant tester la pertinence du modèle.

Tests de linéarité

Ce qu’il faut retenir de ce cours 1/3

Lois des estimateurs

\[\frac{(A-\alpha)}{S_A}\sim \mathcal{T}{(n-2)}\mbox{ et }\frac{(B-\beta)}{S_B}\sim \mathcal{T}{(n-2)}\]

Estimateurs du modèle

\[\begin{align} IC_{1-\delta}(\alpha) =& \left[a-t_{1-\frac{\delta}{2}} s_A;a+t_{1-\frac{\delta}{2}} s_A\right]\\ IC_{1-\delta}(\beta)=&\left[b-t_{1-\frac{\delta}{2}} s_B;b+t_{1-\frac{\delta}{2}} s_B\right]\\ \end{align}\]

\(s_A = \sqrt{\frac{s^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}\) et \(s_B = \sqrt{s^2\left(\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\)

Test de Student de la nullité de la pente de régression

\[H_0:\alpha=0\]

\[H_1:\alpha\neq 0\]

Test de Fisher de Comparaison de modèles

\[H_0\; :\; \text{modèle}\; M_1:Y_i=\beta+E_i,\quad E_i\; \overset{i.i.d.}{\sim} {\cal N}(0,\sigma^2)\]

\[H_1\; :\; \text{modèle}\; M_2:Y_i=\alpha x_i+\beta+E_i,\quad E_i\; \overset{i.i.d.}{\sim} {\cal N}(0,\sigma^2)\]

Ce qu’il faut retenir de ce cours 2/3

Définition : SCT

La variabilité de \(Y\) sans tenir compte du modèle.

\[\color{purple}{SCT =\displaystyle\sum_{i = 1}^n( Y_i - \bar{Y})^2}\]

Définition : SCM

Partie de la variabilité de \(Y\) expliquée par le modèle.

\[\color{blue}{SCM = \displaystyle\sum_{i=1}^n(\widehat{Y_i}-\bar{Y})^2}\]

Définition : SCR

Partie de la variabilité de \(Y\) qui n’est pas expliquée par le modèle.

\[\color{red}{SCR = \displaystyle\sum_{i=1}^n(Y_i-\widehat{Y_i})^2=\displaystyle\sum_{i=1}^n E_i ^2}\]

Décomposition de la variance

\[\color{purple}{SCT} = \color{blue}{SCM} + \color{red}{SCR} \]

Test de Fisher

\[T_n=\frac{SCM/1}{SCR/(n-2)} \overset{H_0}{\sim} \mathcal{F}(1,n-2)\]

Ce qu’il faut retenir de ce cours 3/3

Coefficient de détermination

\[R^2 = \frac{SCM}{SCT}\]

Intervalle de confiance de la droite de régression

\[\begin{align} IC_{1-\delta}(\mathbb{E}[Y_0])=&&\left[\widehat{y_0}-t_{1-\frac{\delta}{2}}\sqrt{s^2\left(\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)};\right.\\ &&\left.\widehat{y_0}+t_{1-\frac{\delta}{2}}\sqrt{s^2\left(\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\right] \end{align}\]

Intervalle de prévision

\[\begin{align} IP_{1-\delta}(Y_0)=&&\left[\widehat{y_0}-t_{1-\frac{\delta}{2}}\sqrt{s^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)};\right.\\ &&\left.\widehat{y_0}+t_{1-\frac{\delta}{2}}\sqrt{s^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\right] \end{align}\]

Degrés de libertés (Degrees of freedom)

Définition

Degrés de libertés (Degrees of freedom) : Le nombre d’observations moins le nombre de paramètres d’espérance à estimer.

  • Dans le cadre du modèle linéaire simple le nombre de paramètre d’espérance à estimer est 2.

  • On a \(n\) observations le nombre de degrées de libertés est donc : \(n-2\)

Propriété et loi de l’estimateur \(S^2\):

Théorème

\(S^2\) est un estimateur sans biais de \(\sigma^2\) et on a

\[\frac{(n-2)S^2}{\sigma^2}=\frac{\sum_{i=1}^n(Y_i-Ax_i-B)^2}{\sigma^2}\sim\chi^2(n-2)\] De plus \(S^2\) est indépendant de \(A\), \(B\) et \(\bar{Y}\)

Propriétés et loi des estimateurs \(A\) et \(B\)

Théorème

\(A\) et \(B\) sont des estimateurs sans biais et consistants de \(\alpha\) et \(\beta\). \(A\) et \(B\) suivent des lois normales d’espérance \(\alpha\) et \(\beta\), et de variance

\[\begin{align} Var(A)&=\frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\\ & \\ Var(B)&=\sigma^2\left(\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right) \end{align}\] Si on remplace \(\sigma^2\) par \(S^2\) pour obtenir des estimateurs des variances

\[\begin{align} S^2_A&=&\frac{S^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\mbox{ et } S^2_B=S^2\left(\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right) \end{align}\]

on a

\[\frac{(A-\alpha)}{S_A}\sim \mathcal{T}{(n-2)}\mbox{ et }\frac{(B-\beta)}{S_B}\sim \mathcal{T}{(n-2)}\]

Intervalle de confiance aléatoire de \(\alpha\) et \(\beta\)

Théorème

A partir des lois de \(A\) et \(B\), on obtient:

Intervalles de confiance aléatoire des estimateurs de niveau \(1-\delta\) de \(\alpha\) et \(\beta\)

\[\begin{align} IC_{1-\delta}(\alpha) = \left[A-t_{1-\frac{\delta}{2}} S_A;A+t_{1-\frac{\delta}{2}} S_A\right]\\ IC_{1-\delta}(\beta)=\left[B-t_{1-\frac{\delta}{2}} S_B;B+t_{1-\frac{\delta}{2}} S_B\right]\\ \end{align}\]

\(t_{1-\frac{\delta}{2}}\) est tel que \(\mathbb{P}\left(\mid \mathcal{T}(n-2)\mid \leq t_{1-\frac{\delta}{2}}\right)=1-\delta\)

\(t_{1-\frac{\delta}{2}}\) est le quantile d’ordre \(1-\frac{\delta}{2}\) de la loi de \(\mathcal{T}(n-2)\).

Intervalle de confiance de \(\alpha\) et \(\beta\)

Théorème

  • Intervalles de confiance des estimateurs de niveau \(1-\delta\) de \(\alpha\) et \(\beta\)

\[\begin{align} IC_{1-\delta}(\alpha) = &\left[a-t_{1-\frac{\delta}{2}} s_A;a+t_{1-\frac{\delta}{2}} s_A\right]\\ IC_{1-\delta}(\beta)=&\left[b-t_{1-\frac{\delta}{2}} s_B;b+t_{1-\frac{\delta}{2}} s_B\right]\\ \end{align}\]

  • \(t_{1-\frac{\delta}{2}}\) est tel que \(\mathbb{P}\left(\mid \mathcal{T}(n-2)\mid \leq t_{1-\frac{\delta}{2}}\right)=1-\delta\)

  • \(t_{1-\frac{\delta}{2}}\) est le quantile d’ordre \(1-\frac{\delta}{2}\) de la loi de \(\mathcal{T}(n-2)\).

  • \(s_A = \sqrt{\frac{s^2}{\sum_{i=1}^n(x_i-\bar{x})^2}}\) : réalisation de \(S_A\)

  • \(s_B = \sqrt{s^2\left(\frac{1}{n}+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\) : réalisation de \(S_B\)

Intervalle de confiance avec R

  • Intervalle de confiance à 95%
confint(modele_reg_simple, level = 0.95)
                  2.5 %     97.5 %
(Intercept) -1293.26217 -459.70165
Longueur       33.75891   63.51773

Test dans le modèle de régression linéaire simple gaussien

Test du caractère significatif de la liaison linéaire

  • Test de Student de la nullité de la pente de régression \(H_0:\alpha=0\) contre \(H_1:\alpha\neq 0\)

  • Test de Fisher de Comparaison de modèles : \[H_0\; \text{modèle}\; M_1:Y_i=\beta+E_i,\quad E_i\; i.i.d.\; {\cal N}(0,\sigma^2)\]

contre l’alternative

\[H_1\; :\; \text{modèle}\; M_2:Y_i=\alpha x_i+\beta+E_i,\quad E_i\; i.i.d.\; {\cal N}(0,\sigma^2)\]

Test de Student de la nullité de la pente de régression

Modélisation des données :

\((x_i,y_i)\), \(i=1,\dots,n\) : modèle linéaire \[\forall i=1,\cdots,n,\quad Y_i=\alpha x_i+\beta+E_i, \; E_i\overset{i.i.d.}\sim{\cal N}(0,\sigma^2)\]

Hypothèses :

Test de \[H_0:\alpha=0\]

contre

\[H_1:\alpha\neq 0\] au risque \(\delta=5\%\)

Statistique de test

\(H_0:\alpha=0\) contre \(H_1:\alpha\neq 0\)

Statistique de test :

\[T_n =\frac{(A-\alpha)}{S_A} \overset{H_0}= \frac{A}{S_A} \overset{H_0}\sim \mathcal{T}{(n-2)}\]

Zone de rejet :

\[R_\delta = \{|T_n| > t_{1-\frac{\delta}{2}}\}\]

On rejette \(H_0\) si \(t_{n} \in R_{\delta}\)

Application numérique :

On calcule \(t_{n} = \frac{a}{s_A}\) la réalisation de \(T_n\).

On compare avec \(t_{1-\frac{\delta}{2}}\) et on conclue.

p-valeur du test

\(p\)-valeur :

\[p_c=\mathbb{P}_{H_0}(\mid T_n\mid >\mid t_{obs}\mid)=2(1-\mathbb{P}(T_n\leq |t_n|))\]\(T_n\sim \mathcal{T}(n-2)\)

Pour un risque de 1ere espèce \(\delta\) fixé acceptable (par ex \(\delta=5\%\))

  • si \(p_c <\delta\), on rejette \(H_0\), le test de niveau \(\delta\) est significatif (liaison significative)
  • si \(p_c >\delta\), on ne rejette \(H_0\) pas, le test de niveau \(\delta\) n’est pas significatif (liaison non significative)

Test de student sur la pente de régression avec R

summary(modele_reg_simple)$coefficient
              Estimate Std. Error   t value     Pr(>|t|)
(Intercept) -876.48191 198.379689 -4.418204 3.318341e-04
Longueur      48.63832   7.082325  6.867565 2.004153e-06

\(T_n = \frac{a}{s_A}\)

48.63832 / 7.082325
[1] 6.867564

\(p_c=\mathbb{P}_{H_0}(\mid T_n\mid >\mid t_n\mid)=2(1-\mathbb{P}_{H_0}(T_n\leq |t_n|))\)\(T_n\sim \mathcal{T}(n-2)\)

n <- nrow(fish)
2*(1-pt(abs(6.867564), n - 2))
[1] 2.004155e-06

Test de Fisher du caractère significatif de la linéarité

Approche par comparaison de modèles

  • Comparer les modèles \(M_1\) et \(M_2\) (à un et deux paramètres d’espérance) définis par

\[\begin{align} M_1 &: Y_i= \beta+E_i,\quad &E_i\ \overset{i.i.d.}\sim\ {\cal N}(0,\sigma^2)\\ M_2 &: Y_i=\alpha x_i+\beta+E_i,\quad &E_i\ \overset{i.i.d.}\sim\ {\cal N}(0,\sigma^2) \end{align}\]

  • Revient à tester, au risque \(\delta\) fixé, l’hypothèse nulle

\[H_0 : \mbox{ modèle } M_1\]

contre l’alternative

\[H_1 : \mbox{ modèle } M_2\]

Etude de la variance

Définition : Somme des Carrés Totale

La variabilité de \(Y\) sans tenir compte du modèle.

\[\color{purple}{SCT =\displaystyle\sum_{i = 1}^n( Y_i - \bar{Y})^2}\]

Etude de la variance

Définition : Somme des Carrés du Modèle

Partie de la variabilité de \(Y\) expliquée par le modèle.

\[\color{blue}{SCM = \displaystyle\sum_{i=1}^n(\widehat{Y_i}-\bar{Y})^2}\]

Définition : Somme des Carrés Résiduelles

Partie de la variabilité de \(Y\) qui n’est pas expliquée par le modèle.

\[\color{red}{SCR = \displaystyle\sum_{i=1}^n(Y_i-\widehat{Y_i})^2=\displaystyle\sum_{i=1}^n E_i ^2}\]

Décomposition de la variance

\[\color{purple}{SCT =\displaystyle\sum_{i = 1}^n( Y_i - \bar{Y})^2}\]

\[\color{blue}{SCM = \displaystyle\sum_{i=1}^n(\widehat{Y_i}-\bar{Y})^2}\]

\[\color{red}{SCR = \displaystyle\sum_{i=1}^n(Y_i-\widehat{Y_i})^2=\displaystyle\sum_{i=1}^n E_i ^2}\]

Théorème

\[\color{purple}{SCT} = \color{blue}{SCM} + \color{red}{SCR} \]

L’idée derrière le test

Modèle avec pente significative. \(SCM\) est significativement plus grande que \(SCR\).

Modèle sans pente significative. \(SCM\) n’est pas significativement plus grande que \(SCR\).

Test de Fisher

Il s’agit d’un test unilatéral de comparaison de variance !

Statistique de test

\[T_n=\frac{SCM/1}{SCR/(n-2)} \overset{H_0}{\sim} \mathcal{F}(1,n-2)\]

Zone de rejet

\[R_\delta = \{T_n > f_{1-\delta} \}\]

\(f_{1-\delta}\) est le quantile \(1 - \delta\) de la loi de Fisher \(\mathcal{F}(1,n-2)\).

\(\mathbb{P}_{H_0}(T_n<f_{1-\delta})=1-\delta\)

Application numérique

  • On calcule \(t_n\)
  • On rejette \(H_0\) si \(t_{n} \in R_{\delta}\)

Calcul de \(p_c\)

\(p_{c} = \mathbb{P}_{H_0}(T_n > t_n)=1-\mathbb{P}(F<t_n)\)\(F\sim \mathcal{F}(1,n-2)\)

Test de fisher avec R

summary(modele_reg_simple)

Call:
lm(formula = Poids ~ Longueur, data = fish)

Residuals:
     Min       1Q   Median       3Q      Max 
-218.349  -22.040   -5.274   46.515   97.877 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -876.482    198.380  -4.418 0.000332 ***
Longueur      48.638      7.082   6.868    2e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 71.27 on 18 degrees of freedom
Multiple R-squared:  0.7238,    Adjusted R-squared:  0.7084 
F-statistic: 47.16 on 1 and 18 DF,  p-value: 2.004e-06

Table d’analyse de la variance

\[ \begin{array}{|c|c|c|c|c|c|} \hline \text{Source} & \text{ddl} & \text{Somme} & \text{Carrés Moyens} & \text{statistique} & p_c\\ \text{de variabilité} & \text{des Carrés} & SC & CM & \text{de test} & \\ \text{de }Y &&&&&\\ \hline \text{Modèle} & 1 & \text{SCM} & CMM=SCM/1 & t_n=\frac{CMM}{CMR} & \mathbb{P}(\mathcal{F}(1,n-2)>t_n) \\ \text{Résidu} & n-2 & SCR & CMR=SCR/(n-2) &&\\ \hline \text{Total} & n-1 & SCT & CMT=SCT/(n-1) &&\\ \hline \end{array} \]

anova(modele_reg_simple)
Analysis of Variance Table

Response: Poids
          Df Sum Sq Mean Sq F value    Pr(>F)    
Longueur   1 239578  239578  47.163 2.004e-06 ***
Residuals 18  91435    5080                      
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Une autre formulation du test de Fisher

On veut tester

  • \(H_0\): Modèle \(M_1\) : \(Y_i=\beta+E_i\) avec \(E_i\overset{i.i.d}\sim{\cal N}(0,\sigma^2)\)

contre

  • \(H_1\): Modèle \(M_2\) : \(Y_i=\beta+ \alpha x_i+E_i\) avec \(E_i\overset{i.i.d}\sim{\cal N}(0,\sigma^2)\)

Cette fois-ci, on va se concentrer sur les résidus de ces deux modèles.

Les résidus du modèle \(M_2\)

\[Y_i=\beta+ \alpha x_i+E_i, \mbox{ où } E_i\overset{i.i.d.}\sim{\cal N}(0,\sigma^2)\]

  • \(Y_i \overset{i.i.d.}\sim {\mathcal N}(\alpha x_i+\beta;\sigma^2)\).

  • 2 paramètres d’espérance \(\alpha\) et \(\beta\) estimés (par les moindres carrés) par \(A\) et \(B\).

  • Prédicteur \(\widehat{Y_i}(M_2)=Ax_i+B\)

  • Somme des carrés résiduelles :

\[SCR(M_2) = \sum_{i=1}^n (Y_i-\widehat{Y_i}(M_2))^2 = \sum_{i=1}^n (Y_i-Axi-B)^2\]

Les résidus du modèle \(M_1\)

\[Y_i=\beta+E_i, \mbox{ où } E_i\overset{i.i.d.}\sim{\cal N}(0,\sigma^2)\]

  • \(Y_i\overset{i.i.d.}\sim{\cal N}(\beta;\sigma^2)\)

  • 1 paramètre d’espérance \(\beta\) estimé (par les moindres carrés) par \(\bar{Y}\).

  • Prédicteur \(\widehat{Y_i}(M_1) = \bar{Y}\)

  • Somme des carrés résiduelles :

\[SCR(M_1)=\sum_{i=1}^n E_i^2(M_1)=\sum_{i=1}^n (Y_i-\widehat{Y}_i(M_1))^2=\sum_{i=1}^n (Y_i-\bar{Y})^2=SCT\]

Interprétation du test de Fisher

Théorème

Statistique de test \(T_n\) peut s’écrire

\[ \begin{align} T_n &= \frac{SCM/ 1}{SCR(M_2)/(n-2)} \\ &= \frac{(SCR(M_{\color{red}{1}}) - SCR(M_{\color{red}{2}}))/ ( 2 - 1)}{SCR(M_2)/(n- 2)}\overset{H_0}\sim \mathcal{F}(1,n-2) \end{align} \]

Remarques

  • \(SCR(M_{\color{red}{1}}) - SCR(M_{\color{red}{2}})\) : différence des variances non expliquées par les modèles.

  • \((2-1)\) : différence du nombre de paramètres.

  • \(SCR(M_1)\geq SCR(M_2)\) (toujours !).

Remarque sur le test de Fisher

Remarques

  • Le test répond à la question : la droite des moindres carrés \(y=ax+b\) (modèle \(M_2\) estimé) explique mieux le nuage de points que la droite horizontale \(y=b\) (modèle \(M_1\) estimé), mais le gain est-il significatif ?

  • \(SCR(M_1)\geq SCR(M_2)\)

  • On n’abandonnera \(M_1\) pour que \(M_2\) que si la réduction d’erreurs en passant du “petit” modèle \(M_1\) au “grand” modèle \(M_2\) est significative.

  • L’introduction de la pente a permis d’expliquer \(SCM=SCR(M_1)-SCR(M_2)\) et a laissé inexpliquée \(SCR(M_2)\).

Autre méthode: test de Fisher avec R

mod1 <- lm(Poids~1, data = fish)

summary(mod1)

Call:
lm(formula = Poids ~ 1, data = fish)

Residuals:
    Min      1Q  Median      3Q     Max 
-239.50  -98.25    6.00  118.50  218.50 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   481.50      29.51   16.31 1.25e-12 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 132 on 19 degrees of freedom

Autre méthode: test de Fisher avec R

anova(mod1,modele_reg_simple)
Analysis of Variance Table

Model 1: Poids ~ 1
Model 2: Poids ~ Longueur
  Res.Df    RSS Df Sum of Sq      F    Pr(>F)    
1     19 331013                                  
2     18  91435  1    239578 47.163 2.004e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Lien entre les deux tests

Remarques

  • Test de Student : \(T^S_{n}=\frac{A}{S_A}\overset{H_0}\sim \mathcal{T}(n-2)\)
  • Test de Fisher : \(T^F_{n}=\displaystyle\frac{SCM/1}{SCR/(n-2)}\overset{H_0}\sim \mathcal{F}(1,n-2)\).
  • procédure équivalente : \(\left(T^S_{n,1}\right)^2=T^F_{n}\) et la loi du carré d’une variable aléatoire \(\mathcal{T}(n-2)\) est une loi de Fisher \(\mathcal{F}(1,n-2)\)

Qualité d’ajustement du modèle

Coefficient de détermination

Définition : Coefficient de détermination

On appelle le coefficient de détermination \(R^2\) la proportion de la variabilité de \(Y\) expliquée par le modèle. Cette proportion est donnée par

\[R^2 = \frac{SCM}{SCT}\]

  • On a \(0\leq R^2\leq 1\). Plus \(R^2\) est proche de \(1\), meilleur est l’ajustement.
  • Si la qualité d’ajustement est mauvais on ne peut pas espérer avoir une bonne prédiction.

Visualisation : Coefficient de détermination

Modèle avec pente significative.

\[R^2 = 0.8395522\]

Modèle sans pente significative.

\[R^2 = 0.0353026\]

Prévision: intervalles de confiance et de prédiction

Prévision

  • Données \((x_i,y_i)_{i=1,\cdots,n}\) modélisées par \[Y_i=\alpha x_i+\beta +E_i,\quad E_i\overset{i.i.d.}\sim{\cal N}(0,\sigma^2)\]
  • Problématique
    • Etant donnée une valeur \(x_0\) de \(x\) pour laquelle on n’a pas observé \(y_0\), construire une prévision de ce \(y_0\) non disponible
    • prévision intuitive par droite des moindres carrées de \(y_0\) : \(\widehat{y_0}=ax_0+b\)
    • Quel sens lui donner ? Quelle qualité ?

Prévision

  • \({\widehat y}_0 = ax_0 +b\) est une réalisation de la variable aléatoire \(\widehat{Y_0}\) définie par \(\widehat{Y_0}=Ax_0+B\)

  • \(\mathbb{E}[\widehat{Y_0}]=\alpha x_0+\beta\) : \(\widehat{Y_0}\) est un estimateur sans biais de \(\mathbb{E}[Y_0] = \alpha x_0+\beta\)

  • De plus, si \(y_0\) était disponible, on lui associerait une v.a. \(Y_0\) définie par \[Y_0=\alpha x_0+\beta + E_0,\quad E_0\overset{i.i.d}\sim{\cal N}(0,\sigma^2)\]

  • \(\widehat{y_0}\) est donc à la fois une estimation de \(\mathbb{E}[Y_0]\) et une prévision de \(y_0\)

Deux problématiques

1 : On ne prend pas en compte la variabilité de \(E_0\)

\(\widehat{y_0} = a x_0 +b\) est une estimation de \(\mathbb{E}[Y_0]\) :

  • Construire un intervalle de confiance pour le paramètre \(\mathbb{E}[Y_0]\). On s’interesse ici à la partie de la réponse expliquée par le modèle. (Seulement la partie du poids du poisson qui est expliquée par sa longueur)

  • En faisant varier \(x_0\), construire un intervalle de confiance de la droite de régression \(\alpha x+\beta\)

2 : On prend en compte la variabilité de \(E_0\)

\(\widehat{y_0}\) est une prévision de \(y_0\) :

  • Construire un intervalle de prédiction pour \(Y_0\).

On s’interesse ici à la totalité de la réponse. (On veut un intervalle sur le poids du poisson totale.)

Intervalle de confiance de \(\mathbb{E}[Y_0]\)

Théorème

\(\widehat{Y_0}=Ax_0+B\) est un estimateur sans biais de \(\mathbb{E}[Y_0]=\alpha x_0+ \beta\), de variance \[\mathbb{V}\left[\widehat{Y_0}\right]=\sigma^2\left(\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right).\]

L’estimateur de la variance \(\mathbb{V}\left[\widehat{Y_0}\right]\) est donnée par \[S_0^2=S^2\left(\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)\]

De plus, \[ \frac{\left(\widehat{Y_0}-\mathbb{E}[Y_0]\right)}{S_0}\sim \mathcal{T}(n-2) \]

Intervalle de confiance de \(\mathbb{E}[Y_0]\)

Théorème

Intervalle de confiance de \(\mathbb{E}[Y_0]\) au niveau de confiance \(1-\delta\)

\[ IC_{1-\delta}(\mathbb{E}[Y_0]) = \left[\widehat{y_0}-t_{1-\frac{\delta}{2}}\ s_0;\right. \left.\widehat{y_0}+t_{1-\frac{\delta}{2}}\ s_0\right], \]

  • \(s_0 = \sqrt{s^2\left(\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\)

  • \(t_{1-\frac{\delta}{2}}\) est tel que \(\mathbb{P}\left(\mid \mathcal{T}(n-2)\mid \leq t_{1-\frac{\delta}{2}}\right)=1-\delta\).

Intervalle de confiance de la droite de régression

Remarques

\(IC_{1-\delta}(\mathbb{E}[Y_0]) = \left[\widehat{y_0}-t_{1-\frac{\delta}{2}}\ s_0;\right.\left.\widehat{y_0}+t_{1-\frac{\delta}{2}}\ s_0\right],\) avec \(s_0 = \sqrt{s^2\left(\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\)

  • En faisant varier \(x_0\), les IC définissent deux hyperboles qui sont l’IC de la droite de régression

  • Plus on s’éloigne du point moyen \((\bar{x},\bar{y})\), moins l’estimation est précise

Intervalle de prévision de \(Y_0\)

On rajoute l’aléa non expliqué par le modèle

Théorème

\(Y_0=\alpha x_0+\beta + E_0\)

\[\mathbb{V}(\widehat{Y_0} - Y_0)= \mathbb{V}[Ax_0+ B] + \mathbb{V}[E_0] = \sigma^2\left( 1 + \frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)\] estimée par \[S_{P_0}^2=S^2\left( 1 + \frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)\] De plus, \[ \frac{(\widehat{Y_0} -Y_0)}{S_{P_0}}\sim\mathcal{T}(n-2) \]

Intervalle de prévision de \(Y_0\)

Théorème

\[\frac{(\widehat{Y_0}-Y_0)}{\sqrt{S^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}}\sim\mathcal{T}(n-2)\] Intervalle de prédiction de \(Y_0\) de niveau \(1-\delta\) :

\[ \begin{align} IP_{1-\delta}(Y_0)=&&\left[\widehat{y_0}-t_{1-\frac{\delta}{2}}\sqrt{s^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)};\right.\\ &&\left.\widehat{y_0}+t_{1-\frac{\delta}{2}}\sqrt{s^2\left(1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar{x})^2}\right)}\right] \end{align} \]

\(t_{1-\frac{\delta}{2}}\) est tel que \(\mathbb{P}\left(\mid \mathcal{T}(n-2)\mid \leq t_{1-\frac{\delta}{2}}\right)=1-\delta\)

Remarques

\[IC_{1-\delta}(\mathbb{E}[Y_0])\subset IP_{1-\delta}(Y_0)\]

Représentation intervalle de confiance et de prévision

Prévisions avec R

  • Prédiction des \(\widehat{y}_i = ax_i+b\) (utilisés pour faire le modèle)
y_hat <- fitted(modele_reg_simple)
head(y_hat)
       1        2        3        4        5        6 
251.9271 290.8378 285.9740 402.7059 412.4336 427.0251 
  • Prédiction du poids d’un poisson qui mesurerait 30 cm: pour \(x_0=30\)
new_data <- data.frame(Longueur = 30)
  • Prédiction et intervalle de confiance ( de \(E[Y_0]\))
predict(modele_reg_simple, new_data,interval="confidence")
       fit      lwr      upr
1 582.6677 537.0726 628.2628
  • Prédiction et intervalle de prévision ( de \(Y_0\))
predict(modele_reg_simple, new_data, interval = "prediction")
       fit      lwr      upr
1 582.6677 426.1422 739.1932